最先进的深神经网络在语义细分方面表现出了出色的表现。但是,它们的性能与培训数据所代表的领域相关。开放世界的场景会导致不准确的预测,这在安全相关应用中是危险的,例如自动驾驶。在这项工作中,我们使用单眼深度估计来增强语义分割预测,从而通过减少存在域移位时未检测到的对象的发生来改善分割。为此,我们通过修改后的分割网络推断出深度热图,该网络生成前后背面的掩模,该面具与给定的语义分割网络并行运行。两种细分面具均汇总,重点关注前景类(此处的道路使用者),以减少虚假负面因素。为了减少假阳性的发生,我们根据不确定性估计进行修剪。从某种意义上说,我们的方法是模块化的,它后处理了任何语义分割网络的输出。在我们的实验中,与基本的语义分割预测相比,我们观察到大多数重要类别的未检测到的对象,并增强对其他领域的概括。
translated by 谷歌翻译
As Artificial and Robotic Systems are increasingly deployed and relied upon for real-world applications, it is important that they exhibit the ability to continually learn and adapt in dynamically-changing environments, becoming Lifelong Learning Machines. Continual/lifelong learning (LL) involves minimizing catastrophic forgetting of old tasks while maximizing a model's capability to learn new tasks. This paper addresses the challenging lifelong reinforcement learning (L2RL) setting. Pushing the state-of-the-art forward in L2RL and making L2RL useful for practical applications requires more than developing individual L2RL algorithms; it requires making progress at the systems-level, especially research into the non-trivial problem of how to integrate multiple L2RL algorithms into a common framework. In this paper, we introduce the Lifelong Reinforcement Learning Components Framework (L2RLCF), which standardizes L2RL systems and assimilates different continual learning components (each addressing different aspects of the lifelong learning problem) into a unified system. As an instantiation of L2RLCF, we develop a standard API allowing easy integration of novel lifelong learning components. We describe a case study that demonstrates how multiple independently-developed LL components can be integrated into a single realized system. We also introduce an evaluation environment in order to measure the effect of combining various system components. Our evaluation environment employs different LL scenarios (sequences of tasks) consisting of Starcraft-2 minigames and allows for the fair, comprehensive, and quantitative comparison of different combinations of components within a challenging common evaluation environment.
translated by 谷歌翻译
This paper presents a learning framework to estimate an agent capability and task requirement model for multi-agent task allocation. With a set of team configurations and the corresponding task performances as the training data, linear task constraints can be learned to be embedded in many existing optimization-based task allocation frameworks. Comprehensive computational evaluations are conducted to test the scalability and prediction accuracy of the learning framework with a limited number of team configurations and performance pairs. A ROS and Gazebo-based simulation environment is developed to validate the proposed requirements learning and task allocation framework in practical multi-agent exploration and manipulation tasks. Results show that the learning process for scenarios with 40 tasks and 6 types of agents uses around 12 seconds, ending up with prediction errors in the range of 0.5-2%.
translated by 谷歌翻译
机器人的感知目前处于在有效的潜在空间中运行的现代方法与数学建立的经典方法之间的跨道路,并提供了可解释的,可信赖的结果。在本文中,我们引入了卷积的贝叶斯内核推理(Convbki)层,该层在可分离的卷积层中明确执行贝叶斯推断,以同时提高效率,同时保持可靠性。我们将层应用于3D语义映射的任务,在该任务中,我们可以实时学习激光雷达传感器信息的语义几何概率分布。我们根据KITTI数据集的最新语义映射算法评估我们的网络,并通过类似的语义结果证明了延迟的提高。
translated by 谷歌翻译
联邦学习(FL)试图在本地客户端分发模型培训,而无需在集中式数据中心收集数据,从而消除了数据私人关系问题。 FL的一个主要挑战是数据异质性(每个客户的数据分布可能会有所不同),因为它可能导致本地客户的权重差异并减慢全球融合。当前专为数据异质性设计的SOTA FL方法通常会施加正则化以限制非IID数据的影响,并且是状态算法,即它们随着时间的推移维持局部统计数据。尽管有效,但这些方法只能用于FL的特殊情况,仅涉及少数可靠的客户。对于fl的更典型应用,客户端数量很大(例如,边缘设备和移动应用程序),这些方法无法应用,激发了对任何可用于任何数量客户端使用的无状态方法的无状态方法的需求。我们得出了一阶梯度正则化,以惩罚由于本地数据异质性而导致的本地更新不一致。具体而言,为了减轻权重差异,我们将全局数据分布的一阶近似引入本地目标,该目标凭直觉地惩罚了与全局更新相反方向的更新。最终结果是一种无状态的FL算法,可实现1)在非IID数据分布下,比SOTA方法明显更快地收敛(即较少的通信回合)和2)总体融合性能更高。重要的是,我们的方法不会对客户大小施加不切实际的限制,从而可以从大多数FL应用程序中向大量客户学习。
translated by 谷歌翻译
显微镜图像的质量通常患有光差。这些畸变及其相关点的扩散功能必须进行定量估计以恢复畸变的图像。基于卷积神经网络的最新最先进的方法可以准确量化畸变,但仅限于点光源的图像,例如荧光珠。在这项研究中,我们描述了Phasenet的扩展,使其能够在生物样品的3D图像上使用。为此,我们的方法将特定于对象的信息结合到用于培训网络的模拟图像中。此外,我们通过Richardson-Lucy Deonvolution添加了基于Python的图像恢复。我们证明,具有预测的PSF的反卷积不仅可以消除模拟畸变,还可以提高使用未知残留PSF的真实原始显微镜图像的质量。我们提供代码,以快速,方便的预测和纠正畸变。
translated by 谷歌翻译
最近,视力变压器已被证明在多个视力任务中广泛使用基于卷积的方法(CNN)具有竞争力。与CNN相比,变压器的限制性偏差较小。但是,在图像分类设置中,这种灵活性在样本效率方面取决于变压器需要成像尺度训练。这个概念已转移到视频中,其中尚未在低标记或半监视设置中探索用于视频分类的变压器。我们的工作从经验上探讨了视频分类的低数据制度,发现与CNN相比,变形金刚在低标记的视频设置中表现出色。我们专门评估了两个对比的视频数据集(Kinetics-400和Somethingsomething-v2)的视频视觉变压器,并进行彻底的分析和消融研究,以使用视频变压器体系结构的主要特征来解释这一观察结果。我们甚至表明,仅使用标记的数据,变形金刚显着优于复杂的半监督CNN方法,这些方法也利用了大规模未标记的数据。我们的实验告知我们的建议,即半监督的学习视频工作应该考虑将来使用视频变压器。
translated by 谷歌翻译
半监督对象检测(SSOD)的最新发展显示了利用未标记数据改善对象检测器的希望。但是,到目前为止,这些方法已经假设未标记的数据不包含分布(OOD)类,这对于较大规模的未标记数据集是不现实的。在本文中,我们考虑了一个更实用但具有挑战性的问题,开放式半监督对象检测(OSSOD)。我们首先发现现有的SSOD方法在开放式条件下获得了较低的性能增长,这是由语义扩展引起的,在该语义扩展中,分散注意力的OOD对象​​被错误预测为半监督训练的分布伪标签。为了解决此问题,我们考虑与SSOD方法集成的在线和离线OOD检测模块。通过广泛的研究,我们发现,基于自我监视的视觉变压器的脱机OOD检测器对在线OOD探测器的表现良好,因为它稳健地对伪标记的干扰。在实验中,我们提出的框架有效地解决了语义扩展问题,并在许多OSSOD基准(包括大规模的可可开放图)上显示出一致的改进。我们还在不同的OSSOD条件下验证框架的有效性,包括不同数量的分布类别,不同程度的监督和不同标记集的组合。
translated by 谷歌翻译
机器学习和临床研究社区利用现实世界数据(RWD)的方法,包括电子健康记录中捕获的数据(EHR)截然不同。虽然临床研究人员谨慎使用RWD进行临床研究,但用于医疗团队的ML会消费公共数据集,并以最少的审查来开发新算法。这项研究通过开发和验证ML-DQA来弥合这一差距,ML-DQA是基于RWD最佳实践的数据质量保证框架。 ML-DQA框架适用于两个地理位置的五个ML项目,分别是不同的医疗状况和不同的人群。在这五个项目中,共收集了247,536名患者的RWD,共有2,999项质量检查和24份质量报告。出现了五种可推广的实践:所有项目都使用类似的方法来分组冗余数据元素表示;所有项目都使用自动实用程序来构建诊断和药物数据元素;所有项目都使用了一个共同的基于规则的转换库;所有项目都使用统一的方法将数据质量检查分配给数据元素;所有项目都使用类似的临床裁决方法。包括临床医生,数据科学家和受训者在内的平均有5.8个人参与每个项目实施ML-DQA,每个项目平均进行了23.4个数据元素。这项研究证明了ML-DQA在医疗项目中的重要性作用,并为团队提供了开展这些基本活动的框架。
translated by 谷歌翻译
我们的方法从单个RGB-D观察中研究了以对象为中心的3D理解的复杂任务。由于这是一个不适的问题,因此现有的方法在3D形状和6D姿势和尺寸估计中都遭受了遮挡的复杂多对象方案的尺寸估计。我们提出了Shapo,这是一种联合多对象检测的方法,3D纹理重建,6D对象姿势和尺寸估计。 Shapo的关键是一条单杆管道,可回归形状,外观和构成潜在的代码以及每个对象实例的口罩,然后以稀疏到密集的方式进一步完善。首先学到了一种新颖的剖面形状和前景数据库,以将对象嵌入各自的形状和外观空间中。我们还提出了一个基于OCTREE的新颖的可区分优化步骤,使我们能够以分析的方式进一步改善对象形状,姿势和外观。我们新颖的联合隐式纹理对象表示使我们能够准确地识别和重建新颖的看不见的对象,而无需访问其3D网格。通过广泛的实验,我们表明我们的方法在模拟的室内场景上进行了训练,可以准确地回归现实世界中新颖物体的形状,外观和姿势,并以最小的微调。我们的方法显着超过了NOCS数据集上的所有基准,对于6D姿势估计,MAP的绝对改进为8%。项目页面:https://zubair-irshad.github.io/projects/shapo.html
translated by 谷歌翻译